智能论文笔记

DPCN++: Differentiable Phase Correlation Network for Versatile Pose Registration

Zexi Chen , Yiyi Liao , Haozhe Du , Haodong Zhang , Xuecheng Xu , Haojian Lu , Rong Xiong , Yue Wang

分类：计算机视觉 | 机器人

2022-06-12

姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务，最高为7DOF，用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望，但它们要么依赖于启发式定义的对应关系，要么易于局部最小值。我们提出了一个可区分的相关（DPC）求解器，该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时，我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言，特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式，将翻译转换和从旋转中脱钩。接下来，使用DPC求解器在频谱中独立有效地估计旋转，比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上，以不同的输入方式，包括2D Bird的视图图像，3D对象和场景测量以及医疗图像。实验结果表明，DCPN ++的表现优于经典和基于学习的基础线，尤其是在部分观察到的异质测量方面。

translated by 谷歌翻译

Learning Interpretable BEV Based VIO without Deep Neural Networks

Zexi Chen , Haozhe Du , Xuecheng Xu , Rong Xiong , Yiyi Liao , Yue Wang

分类：机器人 | 计算机视觉

2021-09-25

单眼视觉惯性进程（VIO）是机器人和自主驾驶中的关键问题。传统方法基于过滤或优化解决了此问题。在完全可解释的同时，他们依靠手动干扰和经验参数调整。另一方面，基于学习的方法可以进行端到端的培训，但需要大量的培训数据来学习数百万个参数。但是，非解剖和重型模型阻碍了概括能力。在本文中，我们提出了一个完全可解释的，可解释的鸟眼视图（BEV），用于具有本地平面运动的机器人的VIO模型，可以在没有深神经网络的情况下进行训练。具体而言，我们首先采用无知的卡尔曼滤波器作为可区分的层来预测音高和滚动，其中学会了噪声的协方差矩阵以滤除IMU原始数据的噪声。其次，采用了精制的音高和滚动，以使用可区分的摄像头投影来检索每个帧的重力对齐的BEV图像。最后，利用可区分的姿势估计器来估计BEV框架之间的剩余3 DOF姿势：导致5 DOF姿势估计。我们的方法允许学习通过姿势估计损失监督的协方差矩阵，表现出优于经验基准的绩效。关于合成和现实世界数据集的实验结果表明，我们的简单方法与最先进的方法具有竞争力，并在看不见的场景上很好地概括了。

translated by 谷歌翻译

Research on Mask Wearing Detection of Natural Population Based on Improved YOLOv4

Xuecheng Wu , Mengmeng Tian , Lanhang Zhai

分类：计算机视觉

2022-08-24

最近，国内Covid-19的流行状况很严重，但是在某些公共场所，有些人不戴口罩或不正确戴口罩，这要求相关人员立即提醒和监督他们正确戴口罩。但是，面对如此重要且复杂的工作，有必要在公共场所戴上自动面具。本文提出了一种基于改进的Yolov4的新面具戴上检测方法。具体而言，首先，我们将坐标注意模块添加到主链中以坐标特征融合和表示。其次，我们进行了一系列网络结构改进，以增强模型性能和鲁棒性。第三，我们部署K-Means聚类算法以使九个锚点更适合我们的NPMD数据集。实验结果表明，改进的Yolov4的性能更好，超过基线4.06％AP，可比速度为64.37 fps。

translated by 谷歌翻译

HTML版本

ICANet: A Method of Short Video Emotion Recognition Driven by Multimodal Data

Xuecheng Wu , Mengmeng Tian , Lanhang Zhai

分类：计算机视觉

2022-08-24

随着人工智能和简短视频的快速发展，短视频中的情感识别已成为人类计算机互动中最重要的研究主题之一。目前，大多数情感识别方法仍然保持在单一方式中。但是，在日常生活中，人类通常会掩盖自己的真实情绪，这导致了一个问题，即单局情感识别的准确性相对可怕。而且，区分类似的情绪并不容易。因此，我们提出了一种新方法，称为ICANET，通过采用三种不同的音频，视频和光学方式来实现多模式的短视频情感识别，从而弥补了缺乏单一模态，然后在短视频中提高情感识别的准确性。ICANET在IEMOCAP基准测试中具有更好的精度为80.77％，超过SOTA方法的精度为15.89％。

translated by 谷歌翻译

HTML版本

DropKey

Bonan Li , Yinhan Hu , Xuecheng Nie , Congying Han , Xiangjian Jiang , Tiande Guo , Luoqi Liu

分类：计算机视觉

2022-08-04

在本文中，我们专注于分析和改进视觉变压器自我发项层的辍学技术，这很重要，同时令人惊讶地被先前的作品忽略了。特别是，我们对三个核心问题进行研究：首先，自我发挥层的下降是什么？不同于文献中的注意力重量不同，我们建议在注意矩阵计算之前向前移动辍学操作，并将钥匙设置为辍学单元，从而产生一种新颖的辍学效果。从理论上讲，我们验证了该方案是否有助于保持注意力重量的正则化和概率特征，从而减轻了过度拟合问题的特定模式，并增强了模型以捕获重要信息；第二，如何在连续层中安排下降比？与利用所有层的恒定下降比相反，我们提出了新的减少时间表，该计划逐渐降低了沿自我注意力层的堆叠比率。我们通过实验验证提出的时间表可以避免在低水平特征中过度贴合，并且在高级语义中缺失，从而提高了模型训练的稳健性和稳定性；第三，是否需要执行结构化辍学操作为CNN？我们尝试基于补丁的辍学操作区块，发现CNN的这种有用的技巧对于VIT并不是必需的。考虑到以上三个问题的探索，我们提出了一种新颖的Dropkey方法，该方法将密钥视为下降单元和利用下降比的减少时间表，以一般方式改善VIT。全面的实验证明了Dropkey对各种VIT体系结构的有效性，\ Emph {e.g。} T2T和Volo以及各种视觉任务，\ Emph {e.g。}，图像分类，对象检测，人类对象相互作用和人体形状检测和人体形状恢复。代码将在接受后发布。

translated by 谷歌翻译

Real-time Rail Recognition Based on 3D Point Clouds

Xinyi Yu , Weiqi He , Xuecheng Qian , Yang Yang , Linlin Ou

分类：计算机视觉

2022-01-08

准确的轨道位置是铁路支持驱动系统的重要组成部分，用于安全监控。激光雷达可以获得携带铁路环境的3D信息的点云，特别是在黑暗和可怕的天气条件下。在本文中，提出了一种基于3D点云的实时轨识别方法来解决挑战，如无序，不均匀的密度和大量点云的挑战。首先呈现Voxel Down-采样方法，用于铁路点云的密度平衡，并且金字塔分区旨在将3D扫描区域划分为具有不同卷的体素。然后，开发了一个特征编码模块以找到最近的邻点并聚合它们的局部几何特征。最后，提出了一种多尺度神经网络以产生每个体素和轨道位置的预测结果。该实验是在铁路的3D点云数据的9个序列下进行的。结果表明，该方法在检测直，弯曲和其他复杂的拓扑轨道方面具有良好的性能。

translated by 谷歌翻译

Geodesic Models with Convexity Shape Prior

Da Chen , Jean-Marie Mirebeau , Minglei Shu , Xuecheng Tai , Laurent D. Cohen

分类：计算机视觉

2021-11-01

基于Eikonal方程的最小测地模型能够在各种图像分割场景中找到合适的解决方案。现有的基于测地的分割方法通常与几何正则化术语一起利用图像特征，例如欧几里德曲线长度或曲率惩罚长度，用于计算测地曲线。在本文中，我们考虑了一个更复杂的问题：在先前用凸形形状找到曲率惩罚的测距路径。我们建立了依赖于取向升降策略的新测地模型，通过该曲线可以映射到高维定向依赖的空间。凸起形状以前用于构建编码特定曲率约束的局部测地度量的约束。然后，可以通过最先进的Hamiltonian快速行进方法有效地计算定向空间中的测地距离和相应的闭合大气路。此外，我们将所提出的测地模型应用于活动轮廓，导致有效的交互式图像分割算法，其保留凸起形状的优点和曲率损失。

translated by 谷歌翻译

Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation

Yue Han , Jiangning Zhang , Zhucun Xue , Chao Xu , Xintian Shen , Yabiao Wang , Chengjie Wang , Yong Liu , Xiangtai Li

分类：计算机视觉

2023-01-03

Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.

translated by 谷歌翻译

AI in HCI Design and User Experience

Wei Xu

分类：人工智能

2023-01-03

In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.

translated by 谷歌翻译

More is Better: A Database for Spontaneous Micro-Expression with High Frame Rates

Sirui Zhao , Huaying Tang , Xinglong Mao , Shifeng Liu , Hanqing Tao , Hao Wang , Tong Xu , Enhong Chen

分类：计算机视觉

2023-01-03

As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.

translated by 谷歌翻译